JSAI2026 単位超球面上の文埋め込みに基づく潜在トピックモデル

テーマ

文書を「単語の集合」ではなく「正規化された文埋め込みの集合」として扱うトピックモデル

各トピックを、通常のガウス分布ではなく、単位超球面上のvon Mises–Fisher分布で表現する

コサイン類似度で扱われる文埋め込みに、より自然に合う確率モデルを作る研究

潜在トピックモデル

話題を推定する確立生成モデル

複数のトピックの混合として生成されると仮定

有名どころ

LDA

複合トピックの混合、Bag of Words

BERTopic、Top2Vec

意味的な類似性の考慮

埋め込み表現の次元削減、クラスタリング系

アイデア: 潜在トピックモデルに文埋め込みを導入

トピック割り当ての単位を、WordでなくSentenceとする

意外と、一般的な発想ではないらしいdaiiz.icon

背景課題

LDAなどの従来型トピックモデルはBag of Words前提のため、語順・文脈・言い換えを扱いにくい

文埋め込みを使う既存手法はあるが、多くはユークリッド空間上のガウス分布として扱う

しかし実際の埋め込み検索では、正規化ベクトルとコサイン類似度を使うことが多い

そのため、埋め込みを「方向データ」として扱う方が自然ではないか、という問題意識がある

提案

vMF Sentence LDA

階層ベイズモデル

文書を文に分割し、各文をSentenceBERTで埋め込み化する

文ベクトルを単位長に正規化する

文ごとに潜在トピックを割り当てる

各トピックは単位超球面上の方向分布として表現する

LDAの「文書は複数トピックの混合」という解釈は維持する

Why von Mises–Fisher分布？

文埋め込みの意味は「方向」に現れる

高次元埋め込みに対して軽量に推論できる

コサイン類似度が意味的類似性を示している前提で、特定の文埋め込みモデルに依存しない

データセット

The 20 Newsgroups

The New York Times

評価

分類性能（サンプル効率）

vSLDA（提案手法）

ほぼすべての条件で最高精度

→ 文埋め込みをうまく使えている

Coherence

トピック間の一貫性

vSLDAが一貫して最良

Diversity

トピック間の多様性

vSLDAが一貫して最良

苦手系な文書

稟議書など

#聴講メモ